The recent emergence of new algorithms for permuting models into functionally equivalent regions of the solution space has shed some light on the complexity of error surfaces, and some promising properties like mode connectivity. However, finding the right permutation is challenging, and current optimization techniques are not differentiable, which makes it difficult to integrate into a gradient-based optimization, and often leads to sub-optimal solutions. In this paper, we propose a Sinkhorn re-basin network with the ability to obtain the transportation plan that better suits a given objective. Unlike the current state-of-art, our method is differentiable and, therefore, easy to adapt to any task within the deep learning domain. Furthermore, we show the advantage of our re-basin method by proposing a new cost function that allows performing incremental learning by exploiting the linear mode connectivity property. The benefit of our method is compared against similar approaches from the literature, under several conditions for both optimal transport finding and linear mode connectivity. The effectiveness of our continual learning method based on re-basin is also shown for several common benchmark datasets, providing experimental results that are competitive with state-of-art results from the literature.
translated by 谷歌翻译
Systems for person re-identification (ReID) can achieve a high accuracy when trained on large fully-labeled image datasets. However, the domain shift typically associated with diverse operational capture conditions (e.g., camera viewpoints and lighting) may translate to a significant decline in performance. This paper focuses on unsupervised domain adaptation (UDA) for video-based ReID - a relevant scenario that is less explored in the literature. In this scenario, the ReID model must adapt to a complex target domain defined by a network of diverse video cameras based on tracklet information. State-of-art methods cluster unlabeled target data, yet domain shifts across target cameras (sub-domains) can lead to poor initialization of clustering methods that propagates noise across epochs, thus preventing the ReID model to accurately associate samples of same identity. In this paper, an UDA method is introduced for video person ReID that leverages knowledge on video tracklets, and on the distribution of frames captured over target cameras to improve the performance of CNN backbones trained using pseudo-labels. Our method relies on an adversarial approach, where a camera-discriminator network is introduced to extract discriminant camera-independent representations, facilitating the subsequent clustering. In addition, a weighted contrastive loss is proposed to leverage the confidence of clusters, and mitigate the risk of incorrect identity associations. Experimental results obtained on three challenging video-based person ReID datasets - PRID2011, iLIDS-VID, and MARS - indicate that our proposed method can outperform related state-of-the-art methods. Our code is available at: \url{https://github.com/dmekhazni/CAWCL-ReID}
translated by 谷歌翻译
在智能的建筑管理中,了解房间的人数及其位置对于更好地控制其照明,通风和供暖,并以降低的成本和改善的舒适度很重要。这通常是通过使用安装在房间天花板上的紧凑型嵌入式设备并集成低分辨率红外摄像机的人员来实现的,从而掩盖了每个人的身份。但是,为了准确检测,最新的深度学习模型仍然需要使用大量注释的图像数据集进行监督培训。在本文中,我们研究了适用于基于低分辨率红外图像的人检测的具有成本效益的方法。结果表明,对于此类图像,我们可以减少监督和计算的量,同时仍然达到高水平的检测准确性。从需要图像中每个人的边界框注释的单杆探测器,到仅依靠不包含人的未标记图像的自动编码器,可以在注释成本方面节省大量,以及计算较低的模型费用。我们在具有低分辨率红外图像的两个具有挑战性的顶级数据集上验证了这些实验发现。
translated by 谷歌翻译
可见的红外人员重新识别(REID)旨在认识到RGB和IR摄像机网络中的同一个人。一些深度学习(DL)模型已直接纳入了两种模式,以在联合表示空间中区分人。但是,由于RGB和IR模式之间数据分布的较大域转移,因此这个跨模式的REID问题仍然具有挑战性。 %本文引入了一种新的方法,用于创建中间虚拟域,该域在训练过程中充当两个主要领域(即RGB和IR模式)之间的桥梁。该中间域被视为在测试时间无法获得的特权信息(PI),并允许将此跨模式匹配任务制定为在特权信息(LUPI)下学习的问题。我们设计了一种新方法,以在可见的和红外域之间生成图像,这些方法提供了其他信息,以通过中间域的适应来训练深层REID模型。特别是,通过在训练过程中采用无色和多步三重态损失目标,我们的方法提供了通用的特征表示空间,这些空间对大型可见的红外域移动具有牢固的功能。 %关于挑战性可见红外REID数据集的实验结果表明,我们提出的方法始终提高匹配的准确性,而在测试时没有任何计算开销。该代码可在:\ href {https://github.com/alehdaghi/cross-modal-re-id-iid-via-lupi} {https://github.com/alehdaghi/alehdaghi/cross-modal-re-re-id-i-id--i- id-i--i- id-id-i--i--via-lupi} { Via-Lupi}
translated by 谷歌翻译
自动情绪识别(ER)最近由于其在许多实际应用中的潜力而引起了很多兴趣。在这种情况下,已经证明多模式方法可以通过结合多样化和互补的信息来源,从而提高性能(超过单峰方法),从而为嘈杂和缺失的方式提供了一些鲁棒性。在本文中,我们根据从视频中提取的面部和声音方式融合的尺寸ER专注于尺寸,其中探索了互补的视听(A-V)关系,以预测个人在价值空间中的情绪状态。大多数最先进的融合技术都依赖于反复的网络或常规的注意机制,这些机制无法有效利用A-V模式的互补性。为了解决这个问题,我们引入了A-V融合的联合跨注意模型,该模型在A-V模态上提取显着特征,从而可以有效利用模式间关系,同时保留模式内关系。特别是,它根据联合特征表示与单个模式的相关性计算交叉意义权重。通过将联合A-V特征表示形式部署到交叉意见模块中,它有助于同时利用内模式和模态关系,从而显着改善系统的性能,而不是香草交叉意见模块。我们提出的方法的有效性是在Recola和AffWild2数据集的挑战性视频中通过实验验证的。结果表明,我们的跨注意A-V融合模型提供了一种具有成本效益的解决方案,即使模式是嘈杂或不存在的,也可以超越最先进的方法。
translated by 谷歌翻译
胶囊网络(CAPSNET)旨在将图像解析为由对象,部分及其关系组成的层次组件结构。尽管它们具有潜力,但它们在计算上还是很昂贵的,并且构成了一个主要的缺点,这限制了在更复杂的数据集中有效利用这些网络的限制。当前的CAPSNET模型仅将其性能与胶囊基线进行比较,并且在复杂任务上的基于CNN的DEEP基于DEEP基于CNN的级别的性能。本文提出了一种学习胶囊的有效方法,该胶囊通过一组子封装来检测输入图像的原子部分,并在其上投射输入向量。随后,我们提出了Wasserstein嵌入模块,该模块首先测量由子胶囊建模的输入和组件之间的差异,然后根据学习的最佳运输找到它们的对齐程度。该策略利用基于其各自的组件分布之间的相似性来定义输入和子胶囊之间的一致性的新见解。我们提出的模型(i)是轻量级的,允许将胶囊应用于更复杂的视觉任务; (ii)在这些具有挑战性的任务上的表现要好于或与基于CNN的模型相提并论。我们的实验结果表明,Wasserstein嵌入胶囊(Wecapsules)在仿射转换方面更加强大,有效地扩展到较大的数据集,并且在几个视觉任务中胜过CNN和CAPSNET模型。
translated by 谷歌翻译
弱监督的视频对象本地化(WSVOL)允许仅使用全局视频标签(例如对象类)在视频中找到对象。最先进的方法依赖于多个独立阶段,其中最初的时空建议是使用视觉和运动提示生成的,然后确定和完善了突出的对象。本地化是通过在一个或多个视频上解决优化问题来完成的,并且视频标签通常用于视频集群。这需要每件型号或每类制造代价高昂的推理。此外,由于无监督的运动方法(如光流)或视频标签是从优化中丢弃的,因此本地化区域不是必需的判别。在本文中,我们利用成功的类激活映射(CAM)方法,该方法是基于静止图像而设计的。引入了一种新的时间凸轮(TCAM)方法,以训练一种判别深度学习(DL)模型,以使用称为CAM-Temporal Max Max Pooling(CAM-TMP)的聚集机制在视频中利用时空信息,而不是连续的凸轮。特别是,感兴趣区域的激活(ROI)是从审计的CNN分类器生成的CAM中收集的,以构建Pseudo-Labels构建用于训练DL模型的伪标记。此外,使用全局无监督的尺寸约束和诸如CRF之类的局部约束来产生更准确的凸轮。对单个独立帧的推断允许并行处理框架片段和实时定位。在两个挑战性的YouTube-Objects数据集上进行无限制视频的广泛实验,表明CAM方法(在独立框架上训练)可以产生不错的定位精度。我们提出的TCAM方法在WSVOL准确性方面达到了新的艺术品,并且视觉结果表明它可以适用于后续任务,例如视觉对象跟踪和检测。代码公开可用。
translated by 谷歌翻译
皮肤镜图像中的皮肤病变检测对于通过计算机化设备对皮肤癌的准确和早期诊断至关重要。当前的皮肤病变细分方法在具有挑战性的环境中表现出较差的性能,例如不明显的病变边界,病变和周围区域之间的对比度低,或导致皮肤病变分割的异质背景。为了准确识别邻近区域的病变,我们提出了基于卷积分解的扩张尺度特征融合网络。我们的网络旨在同时提取不同尺度的功能,这些功能是系统地融合的,以更好地检测。提出的模型具有令人满意的精度和效率。进行病变分割的各种实验以及与最新模型的比较。我们提出的模型始终展示最先进的结果。
translated by 谷歌翻译
尽管深度学习架构最近取得了成功,但在现实词应用程序中,人重新识别(REID)仍然是一个具有挑战性的问题。最近,已经提出了几种无监督的单目标域适应性(STDA)方法,以限制源和目标视频数据之间通常发生的域移位引起的REID准确性下降。鉴于人REID数据的多模式性质(由于跨摄像头观点和捕获条件的变化),训练常见的CNN主链来解决跨多个目标域的域移动,可以为实时REID应用程序提供有效的解决方案。尽管在REID文献中尚未广泛解决多目标域的适应性(MTDA),但一种直接的方法包括混合不同的目标数据集,并在混合物上执行STDA以训练公共CNN。但是,这种方法可能导致概括不佳,尤其是在融合越来越多的不同目标域来训练较小的CNN时。为了减轻此问题,我们基于知识蒸馏(KD-REID)引入了一种新的MTDA方法,该方法适用于实时人员REID应用。我们的方法通过从多个专业的教师CNN中蒸馏出来,适应了目标域上常见的轻型学生骨干CNN,每个CNN都适用于特定目标域的数据。对几个具有挑战性的人REID数据集进行的广泛实验表明,我们的方法优于MTDA的最先进方法,包括混合方法,尤其是在训练像OSNET这样的紧凑型CNN骨架时。结果表明,我们的灵活MTDA方法可用于设计成本效益的REID系统,以实时视频监视应用程序。
translated by 谷歌翻译
半弱监督和监督的学习最近在对象检测文献中引起了很大的关注,因为它们可以减轻成功训练深度学习模型所需的注释成本。半监督学习的最先进方法依赖于使用多阶段过程训练的学生老师模型,并大量数据增强。为弱监督的设置开发了自定义网络,因此很难适应不同的检测器。在本文中,引入了一种弱半监督的训练方法,以减少这些训练挑战,但通过仅利用一小部分全标记的图像,并在弱标记图像中提供信息来实现最先进的性能。特别是,我们基于通用抽样的学习策略以在线方式产生伪基真实(GT)边界框注释,消除了对多阶段培训的需求和学生教师网络配置。这些伪GT框是根据通过得分传播过程累积的对象建议的分类得分从弱标记的图像中采样的。 PASCAL VOC数据集的经验结果表明,使用VOC 2007作为完全标记的拟议方法可提高性能5.0%,而VOC 2012作为弱标记数据。同样,有了5-10%的完全注释的图像,我们观察到MAP中的10%以上的改善,表明对图像级注释的适度投资可以大大改善检测性能。
translated by 谷歌翻译